#Claude Code
Claude Code 火爆被玩壞後,剛剛Anthropic 索性掀桌子:推出非程式設計版 Claude Cowork
繼程式碼工具Claude Code被使用者“玩出花”之後,Claude正式推出Cowork,將其強大的Agent能力擴展到所有非程式設計工作中這款新產品旨在讓任何使用者——而不僅僅是開發者——都能以與Claude Code相同的方式與Claude協作。Cowork目前作為研究預覽版,已向macOS應用上的Claude Max訂閱使用者開放從Claude Code到CoworkClaude Code發佈之初,官方預期開發者會用它來編碼。事實的確如此,但使用者很快就將其應用範圍擴展到了幾乎所有其他領域:從度假研究、製作幻燈片,到清理電子郵件、取消訂閱,甚至從硬碟恢復婚禮照片、監測植物生長和控制烤箱。官方認為,這些多樣化且出人意料的用例背後,根本原因是底層的Claude Agent是最好的代理,而Opus 4.5是最好的模型。受此啟發,Claude團隊推出了Cowork,這是將Claude Code的能力應用於所有非編碼工作的第一步。官方表示,該產品尚處於早期和原始階段,類似於Claude Code首次發佈時的感覺Cowork如何工作?與常規對話不同,在Cowork中,使用者可以授權Claude訪問電腦上的一個指定資料夾。之後,Claude便能讀取、編輯或建立該資料夾中的檔案。例如,它可以:重組你的下載資料夾:通過排序和重新命名每個檔案。處理票據:根據一堆截圖建立一個包含開支列表的新電子表格。整理資料:根據你零散的筆記生成一份報告初稿。在Cowork中,Claude完成這些工作時展現出比常規對話中更強的自主性。一旦設定任務,Claude會制定計畫並穩步執行,同時讓使用者瞭解其進展。對於Claude Code的使用者來說,這種體驗會非常熟悉,因為Cowork建立在完全相同的基礎上。這意味著Cowork能處理許多與Claude Code相同的任務,但形式上更適合非編碼場景。Cowork的功能還可以進一步增強。使用者可以利用現有的連接器,將Claude與外部資訊源關聯。新版本中還增加了一套初始技能,提升了Claude建立文件、簡報和其他檔案的能力。如果將Cow-ork與Chrome瀏覽器中的Claude配對,它還能完成需要訪問瀏覽器的任務。Cowork的設計目標是儘可能簡化使用Claude處理新工作的方式。使用者無需手動提供上下文或轉換輸出格式,也不必等待Claude完成一個任務才能提供反饋或新想法。你可以將任務排入佇列,讓Claude平行處理,體驗更像是給同事留言,而非一來一回的對話。Cowork包含多項新穎的使用者體驗和安全功能,包括:內建虛擬機器(VM):用於隔離執行環境開箱即用的瀏覽器自動化支援支援所有claude.ai資料連接器在不確定時會主動詢問使用者以獲得澄清保持控制與安全風險在Cowork中,使用者始終掌握控制權。你可以選擇Claude能訪問那些資料夾和連接器,它無法讀取或編輯任何你未明確授權的內容。在採取任何重要行動前,Claude也會徵求你的同意,以便你隨時引導或糾正。儘管如此,官方也提示了一些需要注意的風險:1. 潛在的破壞性操作:默認情況下,如果指令不當,Claude可能會執行刪除本地檔案等操作。由於存在誤解指令的可能性,使用者在下達此類指令時應提供非常明確的指導。2. “提示注入”風險:攻擊者可能通過Claude在網際網路上遇到的內容來改變其計畫。儘管Claude已內建了複雜的防禦措施,但Agent安全(即保障Claude在現實世界中行動的安全)在整個行業中仍是一個活躍的研發領域。官方表示,這些風險並非Cowork獨有,但對於首次使用超越簡單對話的高級工具的使用者來說,建議採取預防措施,特別是在熟悉其工作方式的過程中。寫在最後目前發佈的版本是一個研究預覽。Claude希望借此瞭解使用者會如何使用它,以及如何改進產品。官方鼓勵使用者進行實驗,嘗試一些意想不到的用法。根據這次預覽的反饋,Claude計畫進行大量改進,包括增加跨裝置同步、推出Windows版本,並進一步提升其安全性。 (AI寒武紀)
DeepSeek等8大產品都是意外?! 改變世界的項目們,最初都沒被“當個事兒辦”
這些改變世界的產品,最初居然都是不被當回事兒的支線項目(side project)?!包括但不限於:DeepSeek:幻方量化的支線項目Qwen:阿里的支線項目Claude Code:Anthropic的支線項目ChatGPT:OpenAI的的支線項目PyTorch:Meta的支線項目Gmail:Google的支線項目Twitter(現𝕏):Odeo的支線項目Slack:Tiny Speck的支線項目就說例舉的這8個項目裡面,你日常會用幾個吧(doge臉等答案)~反正,隨便單獨拎那一個出來,都會讓人小小詫異一下:這居然也能是個支線項目?不過我們先來界定一下,什麼叫做“支線項目”。簡單來說,就是非主線、非KPI驅動、最初非戰略立項。這些項目成立之初並不重要,更不是公司翻身的戰略方案。所以失敗也好,和主線方向衝突也罷,都沒有太大關係。但——用熱烈討論的網友的話來說:沒有項目經理、銷售、GTMs、合規、股東,支線項目總是魔法生效的地方。從國內到矽谷,side project神話屢見不鮮廢話不多說,先來看國內做副業做得比主業還家喻戶曉的幻方量化。也就是DeepSeek背後的母公司。幻方確實很技術范兒——在幻方量化內部,長期存在大量圍繞算力、模型和工程效率的技術研究。但幻方並不是一家專門的AI Lab,所以上述這些研究首先服務於量化交易本身。更多時候,AI的作用都是輔助金融市場的分析研究,妥妥的支線工具屬性。所以,DeepSeek並不是在聚光燈下誕生的項目,是沿著內部技術演進自然延伸出來的結果。這一點非常關鍵。這種狀態,恰恰讓它能夠繞開很多創業項目必經的約束,比如節奏、敘事、融資節點、對外承諾……總之就是技術可以先跑在需求前面。更別提做量化起家的幻方,完全不缺卡了。畢竟這個時代算力為王,誰能擁有更豐富的GPU叢集,誰就佔據資源優勢,而幻方量化顯然將這點做到了極致。同時長期深耕金融專業場景,也讓它擁有得天獨厚的資料優勢,在研發通用智能時也會更傾向於注重模型推理和數學能力。長期高強度的演算法投入,加上頂尖的人才儲備,幻方量化能打造出爆款AI,可謂天時地利人和。而同屬國內開源大模型第一梯隊的Qwen其實也是支線項目。通義千問技術負責人林俊暘在𝕏上公開:Qwen was a side project。作為成熟的老牌網際網路公司,阿里早期在大模型上的戰略定位更多的還是面向行業ToB使用者,大模型的商業化交付才是絕對主線。Qwen則堅定走上了一條開源道路。而且據林俊暘所說,side project能夠提高成功機率。一是因為沒有過度的決策參與,把自主權交還給真正寫模型的人。二是微觀管理少,更大的試錯空間換來更快的迭代速度。簡單來說,在Qwen的早期發展中,阿里不是完全不管,也不是嚴加看管,而是找到了一條折中的道路。即儘可能給予研究團隊空間,以支線任務的形式“放養”,在證明其價值後,再逐步融入主線資源。再看矽谷,同樣的典型案例有Claude Code。最初,它不過是工程師Boris Cherny的一個Claude實驗性工程:通過連接AppleScript,它能告訴使用者正在聽什麼音樂,還能切換在播的音樂。有用肯定是有用,但聽起來有點平平無奇(?某次和產品經理交流後,Cherny意識到,或許可以給終端來點和系統檔案互動的工具,比如讀檔案、寫檔案,還有運行批處理命令什麼的。Anyway,Claude Code就這樣在相當偶然的情況下誕生了。初露苗頭時,它只是一個員工基於自家大模型手搓的side project。但正式面市後,隨即產生了暴風式傳播效應,並成為Anthropic的當家產品之一。Boris Cherny在𝕏上記錄道:一年前,Claude在生成bash命令時難以避免轉義錯誤。而且它一次只能工作幾秒或幾分鐘。快進到今天。在過去的三十天裡,我提交了259個PR——497次提交,加入了40000行程式碼,刪除了38000行程式碼。每一行程式碼都是由Claude Code+Opus4.5編寫的。Claude持續運行數分鐘、數小時甚至數天。軟體工程的範式正在改變。誰也沒想到,當初一個並未委以重任的支線項目,現在已經成了一股繞不開的力量,推著我們走進程式設計新時期。支線項目說不定會出現更多“逆襲”故事AI加速進入軟體工程流程之後,試錯的成本被明顯拉低了。過去需要團隊協作和資源協調才能完成的探索,現在能由個人更輕鬆、更迅速地來完成初步驗證。從這個角度來想的話,其實真的不用把“探索”當作正經必須立項的行為了。因為你每天就干自己的活,都有可能探索個新思路或者新方法出來。許多支線項目都是在這種條件下出現——從解決一個具體問題開始,通過真實使用不斷修正方向,然後逐漸茁壯成長,最終成為一根根台柱子。現在,AI能很好地縮短從想法到驗證的距離。像Claude Code這樣的項目,並不是一開始就奔著“核心工具”去,而是在不斷使用中積累成熟度,最終進入真實生產流程。當試錯足夠便宜,能否被迅速使用和反饋就更加重要,小項目的價值也隨之改變。就說是不是直接放大了個人探索的價值吧!不過,AI雖然提升了執行效率,卻未必同步提升戰略判斷的精準性。在技術環境變化時,主線項目更容易被原有判斷束縛,而且老話說什麼來著,船大難掉頭。這只是某一側重點下的對比結果,我們絕對不是在說抨擊主線項目,或者說主線項目就會因此失去意義。只是在當下,有些東西發生了變化。支線項目探索的成本更低,反饋更快,也為主線在方向被驗證後承接規模化任務打下了堅實基礎。這種變化還在進行中,其最終形態並不清晰。不過可以看到一個清晰的趨勢——在AI時代,一些關乎未來方向的早期訊號,或許會越來越多地出現在那些一開始並不被當成正事兒的項目裡。One More ThingBTW,並不是所有的支線項目變成主項目後,都能很快拿到一個好的結果的。Be like:(量子位)
全球開發者狂喜!Claude Code史上最大更新,一次性1096次提交
【新智元導讀】全球程式設計師最喜歡的工具迎來最大更新。Boris老哥不僅靠自造的Claude Code年入10億美金,現在更是玩起了極致「套娃」,用Claud Code開發Claude Code,瘋狂迭代1096次提交!Boris Cherny現在不寫程式碼了。作為Claude Code的創造者,這位Anthropic的工程師用自己造的AI工具來寫程式碼——Claude Code去年斬獲超過10億美金的收入。擴展閱讀:30天沒寫一行程式碼,他卻賺了10億美金!這大概是AI時代最諷刺又最美妙的事情:一個人自己不寫程式碼,卻創造了一個能替所有人寫程式碼的工具。而現在,這個工具剛剛迎來了史上最大的一次更新。Claude Code2.1發佈了,這不是一次小修小補——1096次提交,版本從2.0.76直接跳到2.1.1。Anthropic團隊瘋了嗎?不,他們只是在用Claude Code開發Claude Code。這就是AI加速AI的正反饋循環。Claude Code2.1更新了什麼?1. Shift+Enter終於好用了這是使用者抱怨最多的問題,現在徹底解決了。在iTerm2、Kitty、Ghostty、WezTerm這些終端裡,Shift+Enter多行輸入開箱即用。不需要改配置檔案,不需要找變通方案。想換行就按Shift+Enter,就這麼簡單。如果用的是其他終端,運行/terminal-setup就能自動配置。這個改進看起來很小,但用過CC的人都知道,沒有多行輸入有多痛苦。2. Skills系統全面升級Skills是Claude Code最近推出的重磅功能,可以把它理解成「前人驗證好的工作流」。這次更新,Skills成了一等公民:熱多載:修改`~/.claude/skills`目錄下的技能檔案,改完立刻生效,不用重啟。這對開發者來說太重要了。之前偵錯一個Skill,改一次重啟一次,效率極低。現在改完就能看效果,開發體驗直接起飛。分叉上下文:在Skills配置裡加上`context:fork`,就能讓技能在獨立的「子環境」裡運行。這解決了什麼問題?之前執行複雜的Skills,中間產生的大量資訊會污染主對話。問完一個問題,上下文就被塞滿了亂七八糟的東西。現在有了分叉,主對話保持乾淨,技能在旁邊安靜地幹活。生命周期鉤子:Skills現在支援`PreToolUse`、`PostToolUse`和`Stop`鉤子。翻譯成人話就是:可以在Claude呼叫工具之前、之後插入自訂邏輯。比如每次寫檔案之前自動備份,或者每次執行命令之後記錄日誌。這已經是中介軟體等級的能力了。3. 會話傳送功能這個功能必須單獨拿出來說,因為它太酷了。場景是這樣的:在claude.ai網頁上開始了一個項目,聊到一半,發現需要在本地繼續。以前怎麼辦?把對話複製貼上過來?重新描述一遍需求?現在只需要一個命令:/teleport它會自動:驗證是不是在正確的程式碼倉庫拉取並切換到對應的分支載入完整的對話歷史網頁端的工作,無縫傳送到終端。反過來也行,終端裡的會話可以傳送到claude.ai/code繼續。這意味著什麼?可以在任何裝置上開始工作,在任何裝置上繼續工作。在公司用網頁版起草,回家在終端裡深度開發,第二天在咖啡廳用手機回顧進度。Claude Code變成了一個真正意義上的「雲端大腦」。4. 更智能的權限管理之前一個讓人煩躁的問題是:工具呼叫被拒絕的時候,整個智能體就停了。現在不會了。被拒絕之後,Claude會嘗試其他方法繼續推進。另外,工具權限現在支援萬用字元。比如想允許所有帶-h參數的命令,可以寫Bash(*-h*)。不用一個一個地配置權限了。5. 多語言響應可以配置Claude用母語來回覆。日語、西班牙語、中文,都可以。對於非英語母語的開發者來說,這個功能太貼心了。為什麼全球程式設計師都愛Claude Code?說完更新內容,來聊聊一個更本質的問題:Claude Code為什麼能火成這樣?一年收入10億美金,連著名的OpenAI研究員卡帕西都說自己落伍了。這背後是什麼邏輯?1. 它是真正的通用Agent雖然叫Claude Code,但它的能力遠不止寫程式碼。問答、寫作、寫網頁、開發軟體、資料分析,甚至拆分工資條,它都能幹。它能把音訊和圖片快速合成視訊。可以把它理解成一個能操控電腦的智能代理。它能看到檔案系統,讀取檔案、分析檔案、修改檔案、輸出檔案。而溝通方式,就是自然對話。不需要寫程式碼,不需要學命令,說人話就行。2. 資料夾思維Claude Code最棒的設計理念是「資料夾」。每次啟動的時候,給它指定一個資料夾,這個資料夾就是這次任務的上下文。很多CC重度使用者都有專門的Claude Code資料夾,裡面分成很多子資料夾:筆記、資料分析、深度閱讀、軟體開發……每個任務一個資料夾,互不干擾。這種設計讓工作天然有組織性。不像其他AI工具,聊著聊著就亂了,不知道在做什麼。3. 危險模式帶來的效率飛躍什麼是危險模式?開啟之後,Claude Code可以全自動操控電腦,不需要一次次確認。聽起來很危險,但不開的話,每個操作都要點確認,效率根本起不來。當然,一定要做好備份。4. Skill生態Skills是Claude Code的殺手鐧。不需要從零開始,直接用前人驗證好的工作流就行。比如前端設計Skill,一句話就能重新設計網站首頁。這是真正的「站在巨人肩膀上」。聊聊Boris這個人說到這裡,不得不聊聊Claude Code背後的男人——Boris Cherny。Boris的履歷很簡單:前Meta高級工程師,現在是Anthropic的Staff Engineer,負責Claude Code。但他最有意思的地方在於:Claude Code100%的程式碼,都是用Claude Code寫的。沒錯,他自己不寫程式碼,他用自己造的AI來寫程式碼。這聽起來像個悖論,但這恰恰證明了Claude Code的能力——如果連它的創造者都信任它到這種程度,還有什麼理由懷疑呢?Boris的工作方式也很瘋狂。他日常會同時開10-15個Claude Code會話,有的在終端裡,有的在網頁上,每個會話當作一個獨立的「工人」來用。他堅持用最慢但最聰明的模型,比如Opus4.5,因為他相信:更高品質的輸出最終會加速整個開發過程。這個理念很反直覺。大多數人追求速度,想要更快的響應。但Boris認為,如果AI能一次做對,就不需要反覆修改,總時間反而更短。還有一個細節:Claude Code的誕生其實是個「意外」。它最初只是Anthropic Labs團隊的一個原型實驗,用來探索AI模型的能力邊界。沒想到效果太好,直接變成了正式產品。2025年2月發佈,不到一年,年收入就突破了10億美金。這大概就是矽谷最經典的故事範本:一個工程師的「玩具項目」,最後變成了改變行業的產品。Boris還有一個習慣:他會維護一個CLAUDE.md檔案,把它當作「團隊記憶」。每次Claude犯了錯誤或者做對了什麼,他都會記錄下來。這樣下次遇到類似場景,Claude就能直接使用這些經驗。這個習慣後來變成了Claude Code的核心功能之一。你看,好的產品經理不需要做使用者調研,因為他自己就是最苛刻的使用者。Claude Code使用技巧最後分享幾個實用技巧:1. 善用Claude.mdClaude.md是Claude Code的核心配置檔案,相當於它的「憲法」。每次啟動,Claude都會自動載入這個檔案。可以在裡面寫:這個項目是做什麼的偏好規則需要注意的事項這樣Claude每次都能快速進入狀態,不用反覆解釋。2. 拖曳檔案這是最簡單但很多人不知道的技巧:直接把檔案或資料夾拖到Claude Code窗口裡。它會自動讀取內容。不需要複製貼上,不需要輸入路徑。3. 貼上圖片因為Claude Code運行在終端裡,貼上快速鍵不是Cmd+V,而是Control+V。遇到需要圖片的問題,截圖後用Control+V貼上進去,Claude就能看到了。4. 用/teleport無縫切換在網頁端聊到一半,需要本地繼續?直接/teleport,整個對話歷史都帶過來。5. 安裝實用的Skills推薦去官方的Skills倉庫看看:https://github.com/anthropics/skills安裝方式也很簡單,然後跟Claude說「使用xxx skill,幫我做xxx」就行了。「程式設計」的終局Claude Code2.1 的 1096 次提交,背後是一個團隊對「AI 輔助程式設計」這件事的極致追求。但如果只把它當成一個「更好用的程式設計工具」,就太小看它了。Claude Code真正預示的,是程式設計這件事本身的終局。程式設計師會消失嗎?這是每次AI程式設計工具更新時都會被問到的問題。答案是:不會消失,但會徹底改變。Claude Code讓每個人都能「寫程式碼」,但不是每個人都能「定義問題」。未來的程式設計師,不再是敲鍵盤的人,而是能把模糊的需求翻譯成精確任務的人。這個角色更像產品經理,又像架構師,又像項目經理。程式碼變成了思想的副產品,而不是目的本身。自指性AI的哲學意義Boris用Claude Code來開發Claude Code,這不僅僅是一個有趣的花絮。這是AI發展史上的一個里程碑:工具開始製造自己。想想看,人類發明了錘子,但錘子不能製造錘子。人類發明了車床,車床可以加工零件,但不能完整地複製自己。但Claude Code可以。它可以理解自己的程式碼,修改自己的功能,最佳化自己的性能。這是一個自我迭代的系統。每一次更新,都讓它更有能力進行下一次更新。1096次提交,很多都是Claude自己寫的。這種正反饋循環會加速到什麼程度?沒人知道。從Vibe Coding到Vibe EverythingClaude Code的成功證明了一件事:自然語言是最好的程式語言。不是Python,不是JavaScript,而是人話。這個邏輯可以延伸到所有領域。設計?讓AI渲染。寫作?讓AI起草。分析?讓AI處理。我們正在進入一個「Vibe Everything」的時代。不需要學習專業軟體,不需要掌握複雜工具,只需要能清晰表達自己想要什麼。這是真正意義上的「技術平權」。一個沒學過程式設計的小商販,可以用Claude Code做一個庫存管理系統。一個不會Photoshop的創業者,可以讓AI生成完整的品牌視覺。技能不再是壁壘,想法才是。開源生態的意義更重要的是,現在國產開源模型也跟上來了。GLM 4.7、MiniMax M2.1、Kimi K2,都能在Claude Code裡用起來。不再需要擔心封號,不再需要承受官方訂閱的高昂費用。之前Claude Code一年十億美金的收入,都被Anthropic一家吃掉。現在開源生態繁榮起來,每個雲廠商都可以部署、售賣、盈利。而使用者得到的,是只需要百分之一的價格,就能享受到同樣的智能。這不只是商業模式的變化,而是權力結構的變化。AI 的能力不再被幾家巨頭壟斷,而是變成了像水電一樣的基礎設施。程式碼是新的文字,而這次,每個人都可以執筆。 (新智元)
再見,程式設計師!馬斯克宣判:奇點就在2026
不用多說,相信每個人的時間線全被Claude Code刷屏了。馬斯克甚至斷言,「我們已進入奇點!2026年就是奇點之年」。這幾天,Claude Code在全網掀起的陣仗可真不小。一睜眼,地球首富馬斯克重磅宣告:我們已進入奇點!起因竟是,Midjourney創始人公開稱,聖誕假期自己敲的程式碼,比過去十年加起來還要多,簡直太瘋狂。「雖然能感到侷限,但我知道一切都不再一樣了」。同一天,馬斯克不止一次,直接宣稱「2026年就是奇點之年」。這個點評同樣是對Claude Code的高度讚揚。如今,包括Anthropic之父、前DeepMind/OpenAI研究員、Google首席工程師等大佬在內,都為其感到震驚。馬斯克:2026,奇點降臨一直以來,奇點這一概念就像科幻詞一般的存在。雷·庫茲維爾曾在2005年《奇點臨近》一書中,預測道技術奇點大約發生在2045年。而在最新出版的《奇點更近》著作中,他再次重申奇點時間:仍是2045年。誰曾想,這個看似還很遙遠的時刻,一下子被拉到了現在——2026年。所謂的技術奇點,是指技術在長期內增長緩慢,但在某個臨界點急劇加速,呈指數式上升。能夠讓馬斯克有這麼深感觸,竟是Claude Code席捲全網的強大程式設計能力。一點也不誇張地說,2026年開年這局,身邊的人都瞬間成為了Claude Code使用者。生物醫學工程師Derya Unutmaz雖不是專業程式設計師,升級訂閱就是為了更頻繁使用Claude Code。就連xAI聯創Igor Babuschkin感慨道,「有些年頭風平浪靜,啥大事沒有,可有些星期卻濃縮了數十年的變遷」。一夜之間,Claude Code為何變得這麼強了?真正的「民間高手」:Claude Opus精準來說,不是它變強了,而是一直就很強。去年11月底,超大杯Claude Opus 4.5一出世,Anthropic便宣稱其是全球最頂尖的編碼模型。內部測試中,Opus 4.5+Claude Code聯動使用,平均效率暴增220%。當時,Anthropic工程師預言,也許就在2026年上半年,軟體工程就被終結了。如今看來,可能就在最近了。剛剛,在最新升級的LiveBench榜單上,Claude Opus 4.5登頂,直接碾壓GPT-5.1 Codex MAX、Gemini 3 Pro。創始人Bindu Reddy稱,在聖誕假期期間,團隊改進了LiveBench,為了防止AI刷分作弊。這個排名在很大程度上,反映了這些LLMs在現實世界中的表現。去年12月,METR的一份報告揭秘了,全球最能打的AI還是Claude Opus 4.5。它在自主編碼任務中,能夠連續5小時不崩,也是迄今為止公開的AI完成長程任務時間最長的模型。AI大佬Simon Willison表示,Opus 4.5和GPT-5.2就像是一個轉折點。「模型逐步跨越到了一個隱形能力界限的時刻,忽然間,大量的編碼難題都被解決了」。即便是程式設計0經驗的人,也能在不到十分鐘的時間,打造出一款功能齊全的網頁應用。就像網友所言,如果不出意外的話,Claude Code可能會讓更多人成為百萬富翁。人類的最後一次發明如果我們翻開哲學家戴維·查爾默斯(David J. Chalmers)那篇經典的《奇點:哲學分析》,會發現當下的瘋狂景象,不過是這套嚴密邏輯推演的必然兌現。論文地址:https://consc.net/papers/singularity.pdf在查爾默斯的推導模型中,我們正處於一個被稱為「擴展前提(Extension Premise)」的關鍵節點。他將這一過程量化為從AI到AI+再到AI++的階躍:AI:人類水平的人工智慧。AI+:超越人類最強大腦的智能。AI++:超級智能,其超越程度正如人類超越老鼠一般。正如查爾默斯引用的I.J. Good在1965年的那個著名論斷:「超智慧型手機器(Ultraintelligent Machine)將是人類需要製造的最後發明」。邏輯非常性感且冷酷:機器設計機器:既然設計機器本身是一種智力活動,那麼一台超越人類的機器(AI+),必然能設計出比人類所能設計的更好的機器。遞迴的雪崩:這台被AI+設計出的新機器,擁有更強的設計能力,它將設計出下一代更強的機器。無限逼近:只要這台機器能通過編寫程式碼來最佳化自身,我們將無可避免地迎來一場「智能爆炸」。我們現在看到的,正是查爾默斯所描述的「速度爆炸」與「智能爆炸」的完美合流。當模型開始比人類更擅長最佳化演算法時,我們就不再是處於一個線性的增長曲線上,而是站在了垂直牆面的底端。每個人都會成為軟體工程師奇點來臨的那一刻,世界會有什麼不同?Google工程師Vaibhav Agarwal稱,自己再也不用寫程式碼了,現在70%-80%程式碼都是AI寫的。而他的工作僅是「程式碼審查」,角色發生了根本性的轉變,具體是這麼做的:不再輸入語法,用提示詞(Prompt)來定義邏輯;不再費力找 bug,而是審查AI給出的修改建議;不再硬啃遺留程式碼,直接讓AI把它講明白。許多工程師對此感到內疚,覺得自己像是在「作弊」。實際上並不是,他們是在進化。Agarwal曾問過一位資深領導,關於一個所有人都害怕的問題:AI會取代我們嗎?他是這麼說的——AI是一個效率倍增器,而不是替代品。如果你過去每周完成1倍的工作量,現在預期則是,同一周內完成4倍的工作量。沒有任何一家公司希望倒退。如今,衡量「生產力」的標準已經被整體抬高了。如果你因為自稱是個「純粹主義者」而拒絕使用 AI,那並不高尚——你只是慢了。AI不會取代你。但一個借助AI、能完成4倍工作量的工程師……滿足網友的好奇,工程師用的是自家的GeminiHyperbolic創始人Yuchen Jin直言不諱,要是在讀博期間有這些強大工具助力,自己不用耗費5.5年,可能一年就畢業了。此前,奧特曼在採訪中還曾表示,「用不了多久,每個人都會成為軟體工程師」。他隨口拋出了一個關於未來工作方式和軟體世界的超級觀點,但很多人還沒意識到這件事有多重要。核心想法其實很簡單,自然語言,就是新的程式設計語法。程式設計師大軍終結,不需要龐大的開發團隊才能做出第一個版本。只需描述出需求,AI直接把它做出來。在複雜系統中,AI智能體會直接「住」在程式碼庫裡。它們會自己瀏覽repo、修復bug、補測試、重構程式碼,並自動提交修改。一旦軟體開發被自動化,同樣的邏輯也會蔓延到營運、規劃,甚至部分管理工作。程式碼,只是倒下的第一塊多米諾骨牌。如果這一切真的發生,「學會寫程式碼」本身就沒那麼重要了。 (新智元)
30天沒寫一行程式碼,他卻賺了10億美金!
6個月,10億美元收入,這就是Claude Code創下的奇蹟。就在剛剛,自曝靠Claude Code讓AI 100%寫程式碼的工程師,大方揭秘了自己的配置!眾多大佬預言:四天工作制真來了。如果有一個 AI,可以幫你寫100%的程式碼,你還會通宵加班嗎?更誇張的是,這個工具不是大廠項目立項,不是融資砸錢堆出來的,而是一個工程師的「副業」。6個月,從個人項目起步,做到了10億美元ARR(年度經常性收入),直接成為程式設計師圈的爆款現象級神器。你肯定已經猜到了,它就是Claude Code。而Claude Code之父已經承認,過去30天裡,自己100%的程式碼,都是靠這個AI寫的!作為Claude Code項目的開發負責人,Boris Cherny可以說是Claude Code技術的靈魂人物。他曾被Cursor開發商 Anysphere重金挖走,然後又被Anthropic閃電速度挖回。上線半年,收入破10億就在25年12月初,AI程式設計圈炸鍋了。Anthropic宣佈,旗下AI編碼神器Claude Code上線僅6個月,就創造了近10億美元年化營收,堪稱AI程式設計類工具史上最亮眼紀錄,直接一條腿跑贏很多大廠半年成績!同時,它還完成了令人咋舌的首筆戰略收購——吞下開發者神器Bun。這就意味著,AI編碼工具已經進入了中後台的基礎設施時代,企業的付費市場已經打開!Claude Code的神奇增長速度,背後有一個關鍵秘密: 它不是簡單的「程式碼補全器」,而是一個AI數字「碼農同事」。一般的AI工具最多也就是補程式碼片段、解釋bug,但Claude Code的目標是:能理解整個項目上下文,自動設計、生成、測試程式碼,並且與真實工作流程深度融合!這就意味著:無論是寫功能、偵錯、打包,AI都能自動完成,可以直接在終端/IDE 裡一條命令「召喚」,而且幾乎不需要手工寫冗餘程式碼。可以說,它已經是一個能和你一起獨立寫項目的AI工程師。這也就是為什麼,上線後僅6個月,Claude Code單靠企業付費訂閱和API商業版,就讓其年化營收跑到了快10億美元。這個數字,比很多傳統軟體老牌公司的全年營收還要高!Claude Code之父,手把手親授自從Claude Code之父Boris Cherny承認自己的程式碼100%由Claude Code寫成,AI社區大為震驚:這是怎麼做到的?就在剛剛,Boris大方揭秘了自己的配置!出乎意料的是,這個配置竟然如此簡單。可以說,Claude Code開箱即用,效果很好,所以Boris Cherny很少對它進行自訂設定。具體步驟如下。1.在終端中平行運行5個Claude。2.在Claude.ai/code上,也同時運行5-10個Claude。通過終端編碼時,他會經常會將本地會話交給網路,或者手動在Chrome中啟動會話,有時還會來回傳送。每天早上和白天,他都會從自己手機上(通過Claude iOS應用)啟動幾個會話,然後會檢查它們。然後,他會用Claude Opus 4.5來思考。可以說,這是他用過最好的程式設計模型,雖然它比Sonnet更大、更慢,但是因為它需要的引導更少,在工具使用上也更好,所以在小模型中,它幾乎總是最快的。Boris的團隊會共享一個CLAUDE.md用於 Claude Code倉庫。他們會將其提交到git,整個團隊每周貢獻多次。每次他們看到Claude做錯事時,就會將其加入到CLAUDE.md ,這樣Claude就知道,下次不能這樣。程式碼審查期間,他常常在同事的PR上標記@.claude,從而將某些內容加入到CLAUDE.md,作為PR的一部分。他們會使用Claude Code Github action (/install-github-action) ,來實現這一點。大多數會話以Plan模式啟動。如果目標是寫一個Pull Request,他就會使用Plan模式,並與Claude來回溝通,直到滿意為止。然後,他會切換到自動接受編輯模式,Claude通常可以一次性完成。一個好的計畫,真的非常重要。Boris說,自己會使用斜槓命令來處理每天多次執行的「內循環」工作流。這樣一來,就不用一次次重複寫提示詞,而且Claude也可以直接使用這些工作流。例如,Claude和他每天都會使用/commit-push-pr這個斜槓命令數十次。這個命令裡會直接內嵌bash指令碼,提前計算好 git status 以及一些其他資訊,這樣命令執行得更快,也避免了和模型之間來回確認、反覆溝通。Boris會經常用到幾個子代理(subagents)。比如 code-simplifier,在Claude完成程式碼後負責對程式碼進行簡化;verify-app則有一套非常詳細的說明,用來對Claude Code進行端到端測試,等等。和斜槓命令類似,Boris把子代理看作是對大多數PR中最常見工作流的自動化封裝,會把那些重複、固定的流程交給它們。他們團隊會經常使用PostToolUse hook,來對Claude生成的程式碼進行格式化。Claude通常一開始就能生成格式很規範的程式碼,而這個hook主要負責補上最後那10% 的細節,從而避免後續在CI中因為格式問題而報錯。他不會使用--dangerously-skip-permissions。相反,他會通過 /permissions 預先放行那些能確認在當前環境中是安全的常用bash命令,從而避免頻繁彈出不必要的權限提示。Boris表示,Claude Code已經替他使用所有他的工具。它經常會搜尋資訊、通過MCP伺服器在Slack上發消息,還會用 bq CLI 運行BigQuery 查詢來回答分析類問題,或者從Sentry拉取錯誤日誌等等。對於執行階段間特別長的任務,他通常會採用以下幾種方式之一:(a)在任務完成後,提示Claude使用一個後台agent來校驗自己的工作; (b)使用agent的Stop hook,用更確定、可控的方式來完成校驗;(c)或者使用ralph-wiggum外掛。最後,一個很重要的建議就是:想要把Claude Code的效果發揮到極致,最重要的一點就是——給Claude一個驗證自己工作的方式。一旦Claude擁有這樣的反饋閉環,最終產出的質量通常能提升2~3倍。Boris的X發佈後,大量專業人士在帖子下方表示讚歎,而且提出了不少細節問題。2026,人類離「只工作四天」竟如此之近?說到這裡,就不得不提最近大佬們對於人類未來工作的預測了。2026年伊始,一場關於 「未來工作模式革命」 的大討論正在興起。曾被視為理想主義者的「四天工作制」,如今正被世界上最有影響力的商業領袖們認真討論,而且越來越多人認為:這不再是烏托邦,而是很有可能成為現實!比爾蓋茲認為,未來人類可能每周只需要工作2到3天。摩根大通的Jamie Dimon預測,下一代人將活到100歲且沒有癌症,每周僅需工作3.5天。黃仁勳認為,4天工作制是最有可能的。馬斯克的預測則最為激進:他認為未來10到20年內,工作將變成可選項,未來將是 「全民高收入」 且沒有貧困的世界。而且,這場變革並非空想。已經有多國開始試點四天工作制,結果顯示,工作效率不降反升,人類員工壓力降低,滿意度上漲。然而,這場變革也不是毫無代價的。人們可能會被AI迅速替代,低技能的崗位轉型壓力巨大,而且失業風險和社會支援體系也需要改革。然而,技術進步從不會因為恐懼而停下腳步。可以肯定的是,我們正處在一個勞動方式被徹底改寫的時代。 (新智元)
Claude Sonnet 4.5發佈,可連續程式設計30小時,Claude Code同款建構工具也開放了
看起來10月又是一個大月,DeepSeek用v3.2開場,Anthropic,Google,OpenAI都有大動作剛剛,Anthropic發佈了其最新前沿模型——Claude Sonnet 4.5官方稱,這是目前全球最強的程式碼模型、最強的複雜智能體建構模型、以及最擅長使用電腦的模型,並且在推理和數學能力上取得了顯著進步伴隨新模型發佈的,還有一系列產品全家桶的升級,Anthropic還首次開放了建構Claude Code的同款工具,最後還發佈了一個比較科幻的東西叫Imagine with Claude,可以即時動態生成軟體,不過目前還是研究預覽Claude Sonnet 4.5現已全面可用,通過API呼叫claude-sonnet-4-5即可。價格與上一代Sonnet 4保持不變,為每百萬token輸入3美元/輸出15美元新模型性能有多強?Anthropic表示,Claude Sonnet 4.5在衡量真實世界軟體編碼能力的SWE-bench Verified評估中達到了業界頂尖(SOTA)水平。在實際測試中,該模型能在複雜的多步驟任務上保持超過30小時的專注在電腦使用能力方面,Sonnet 4.5也實現了巨大飛躍。在測試AI模型真實世界電腦任務的OSWorld基準上,Sonnet 4.5以61.4%的得分領先。就在四個月前,Sonnet 4還以42.2%的成績保持領先此外,該模型在一系列廣泛的評估中也展示了更強的能力,包括推理和數學:來自金融、法律、醫學和STEM領域的專家發現,與包括Opus 4.1在內的舊模型相比,Sonnet 4.5在特定領域的知識和推理能力上表現出了顯著的提升產品全家桶重大升級Claude Code發佈 v2.0 了,升級了 UI 介面,推出了全新的VS Code擴展外掛。此外,還有一個實用的新功能:檢查點(checkpoints)。通過它,你可以快速撤銷Claude剛剛做出的修改,只需輕鬆按下Esc+Esc快速鍵,或者輸入指令/rewind即可實現Claude API增加了新的上下文編輯功能和記憶工具,使智能體能夠運行更長時間並處理更複雜的任務。Claude App中,程式碼執行和檔案建立(電子表格、幻燈片和檔案)功能被直接整合到對話中Claude for Chrome擴展已向所有上個月加入等待名單的Max使用者開放首次開放Claude Agent SDKAnthropic此次還開放了他們用於建構Claude Code的基石——Claude Agent SDK官方表示,他們解決了建構AI智能體過程中的多個難題:智能體如何在長時間任務中管理記憶、如何平衡自主性與使用者控制的權限系統、以及如何協調多個子智能體以實現共同目標現在,這套為Anthropic前沿產品提供動力的基礎設施正式向所有開發者開放,可用於建構自己的智能體地址:https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk(使用 Claude Agent SDK 建構 Agent)史上最對齊模型Anthropic稱,Claude Sonnet 4.5是其迄今為止最對齊的前沿模型通過提升模型能力和進行廣泛的安全訓練,模型的行為得到了顯著改善,減少了逢迎、欺騙、權力尋求和鼓勵妄想等不良行為。針對智能體和電腦使用能力,模型在抵禦提示注入攻擊方面也取得了長足進步Claude Sonnet 4.5在AI安全等級3(ASL-3)的保護下發佈。這些保護措施包括旨在檢測潛在危險輸入和輸出的分類器,特別是與化學、生物、放射性和核(CBRN)武器相關的內容如果分類器意外標記了正常內容,使用者可以方便地切換到CBRN風險較低的Sonnet 4模型繼續對話。Anthropic表示,自最初引入分類器以來,他們已將誤報率降低了十倍one more thing與Sonnet 4.5一同發佈的還有一個名為“Imagine with Claude”的限時研究預覽在這個實驗中,Claude能夠即時動態地生成軟體,沒有任何預定功能或預寫程式碼。使用者可以看到Claude根據互動請求進行即時建立和調整該功能向Max訂閱使用者開放,為期五天上手小測試我用之前測試新模型前端能力的提示詞測了一下,並且至少進行了5次抽卡,沒有一次成功,感覺Claude Sonnet 4.5程式碼能力提升貌似不大,提示詞如下:模擬,一個由彈力球組成的正方體漂浮在半空中,從正方體最下一層慢慢塌方,注意是,一層一層塌方,小球落在桌子上彈起來,直到靜止,模擬整個塌方過程,整個過程符合物理規律,效果要酷炫,整個環境要儘量逼近真實,在單個HTML中實現實現效果:一次掉落了兩層後,小球就不往下掉落了,核心的邏輯沒有實現完整的技術細節和評估結果,可參閱官方發佈的系統卡、模型頁面和檔案https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf(整整148頁)https://www.anthropic.com/claude/sonnethttps://docs.claude.com/en/docs/about-claude/models/overviewhttps://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents(這篇也很重要,講如何為Agent建構的上下文工程context engineering,詳細請看下一篇文章)官方測試方法說明SWE-bench Verified: 所有Claude結果均使用一個包含bash和檔案編輯兩個工具的簡單框架報告。在完整的500個問題的SWE-bench Verified資料集上,通過10次試驗平均,無測試時計算,200K思考預算,得分為77.2%OSWorld: 所有分數均使用官方OSWorld-Verified框架報告,最大步數為100,4次運行取平均值MMMLU: 所有分數均為在14種非英語語言上進行5次運行的平均值,並使用了擴展思考(最高128K)。其他模型的得分均引用自OpenAI和Google發佈的官方文章或排行榜 (AI寒武紀)
Agent不聽話、總犯錯? Claude官方開發指南:手把手教你打造高效工具,讓大模型秒變“靠譜員工”
Anthropic 這篇《Writing effective tools for AI agents — with agents》把給智能體寫工具從零散經驗上升為可復現的方法論:強調以評估驅動的迭代流程、以Agents為中心的工具設計原則(namespacing、簡潔響應、token 效率等),並展示用影響Claude 對行業的最佳設計路徑過去我們把API 當成給程式設計師用的契約,現在要把介面重新設計成能被會思考的模型理解的工具。 Anthropic 這篇工程帖子,把這件事從經驗總結,推演成一套可執行的工程流程——從原型、評估、到讓Claude 自己參與改進工具。讀完它,你會發現:未來的後端介面設計,不再只為了機器──而是為了會推理的機器Agent的效能取決於提供給它們的工具。本文將分享如何編寫高品質的工具和評估方法,以及如何利用Claude 來為它自己優化工具,從而提升效能模型上下文協議(Model Context Protocol, MCP)可以為大語言模型代理賦予數百種工具來解決現實世界的任務。但如何讓這些工具的效能最大化呢?本文將介紹在多種代理AI 系統中提升效能最有效的技巧首先,本文將涵蓋如何:1.建構和測試工具的原型2.建立並運行針對代理使用工具的全面評估3.與像Claude Code 這樣的代理協作,自動提升工具的效能最後,本文將總結在此過程中總結出的編寫高品質工具的關鍵原則:選擇正確的工具進行實現(以及不實現)通過命名空間為工具定義清晰的功能邊界從工具向代理傳回有意義的上下文優化工具響應的詞元(token)效率通過提示工程優化工具描述和規範什麼是工具?在計算領域,確定性系統在給定相同輸入時總是產生相同的輸出,而非確定性系統——例如代理——即使在起始條件相同的情況下也可能產生不同的響應。在傳統軟件編寫中,是在確定性系統之間建立契約。例如,像 getWeather("NYC") 這樣的函數呼叫,每次執行時都會以完全相同的方式獲取紐約市的天氣。工具是一種新型軟件,它反映了確定性系統與非確定性代理之間的契約。當使用者問“我今天需要帶傘嗎?”,代理商可能會呼叫天氣工具,也可能根據常識回答,甚至可能先詢問地點等澄清性問題。偶爾,代理可能會產生幻覺,或無法理解如何使用某個工具。這意味著在為代理程式編寫軟件時,需要從根本上反思方法:不能像為其他開發者或系統編寫函數和API 那樣來編寫工具和MCP 服務器,而是需要為代理進行設計。目標是透過使用工具來追求各種成功的策略,從而擴大代理人能夠有效解決各類任務的範圍。幸運的是,根據經驗,那些對代理人而言最「易於使用」的工具,最終對人類來說也出乎意料地直觀易懂。如何編寫工具本節將介紹如何與代理協作來編寫並改進提供給它們的工具。首先,快速建立一個工具原型並在本地進行測試。接著,運行一次全面的評估來衡量後續的改動效果。透過與代理商協同工作,可以重複評估和改進工具的流程,直到代理商在真實世界任務上取得優異的效能。建構原型在沒有親身實踐的情況下,很難預見那些工具對代理商來說是易於使用的,那些不是。首先應快速建構一個工具原型。如果使用Claude Code 編寫工具(可能是一次性生成),向Claude 提供工具所依賴的任何軟體庫、API 或SDK(可能包括MCP SDK)的檔案會很有幫助。大語言模型友善的檔案通常可以在官方檔案網站的扁平化 llms.txt 檔案中找到。將工具包裝在本機MCP 服務器或桌面擴展(DXT)中,就可以在Claude Code 或Claude 桌面應用中連接並測試工具。若要將本機MCP 伺服器連接到Claude Code,請運行 claude mcp add <name> <command> [args...]若要將本機MCP 服務器或DXT 連接至Claude 桌面應用,分別導航至“設定> 開發者”或“設定> 擴充”工具也可以直接傳遞到Anthropic API 通話中進行程式設計測試親自測試這些工具,找出任何不順手的地方。收集使用者的回饋,以便對工具所要支援的用例和提示建立直觀的理解。運行評估接下來,需要透過運行評估來衡量Claude 使用工具的效果。首先,基於真實世界用例產生大量的評估任務。建議與代理協作,幫助分析結果並確定如何改進工具生成評估任務利用早期原型,Claude Code 可以快速探索工具並建立數十個提示和回應對。提示應受到真實世界用例的啟發,並基於現實的資料來源和服務(例如,內部知識庫和微服務)。建議避免使用過於簡單或膚淺的「沙盒」環境,因為它們無法以足夠的複雜性對工具進行壓力測試。一個好的評估任務可能需要多次工具呼叫——甚至可能多達數十次以下是一些好的任務範例:安排下周與Jane 開會,討論最新的Acme 公司項目。附上我們上次項目規劃會議的紀要,並預訂一間會議室客戶ID 9182 報告稱,他們的一次購買嘗試被收取了三次費用。找出所有相關的日誌條目,並確定是否有其他客戶受到相同問題的影響客戶Sarah Chen 剛剛提交了取消請求。準備一份挽留方案。確定:(1) 他們離開的原因,(2) 那種挽留方案最具吸引力,以及(3) 在提出方案前需要注意的任何風險因素。以下是一些較弱的任務範例:安排下周與 jane@acme.corp 開會在支付日誌中搜尋 purchase_complete 和 customer_id=9182根據客戶ID 45892 尋找取消請求每個評估提示都應配有一個可驗證的回應或結果。驗證器可以像基準真相與採樣響應之間的精確字串比較一樣簡單,也可以像讓Claude 來評判響應一樣高級。避免使用過於嚴格的驗證器,它們可能會因為格式、標點或有效的替代表述等無關緊要的差異而拒絕正確的回應。對於每個提示-響應對,可以選擇性地指定期望代理在解決任務時呼叫的工具,以衡量代理在評估過程中是否成功掌握了每個工具的用途。然而,由於解決任務可能存在多種有效路徑,因此應盡可能避免過度指定或對特定策略過擬合。運行評估建議透過直接呼叫LLM API 以編程方式運行評估。使用簡單的代理循環(包裹著交替的LLM API 和工具呼叫的 while 循環):每個評估任務一個循環。每個評估代理都應被賦予一個任務提示和相應的工具。在評估代理程式的系統提示中,建議不僅指示代理輸出結構化的響應塊(用於驗證),還要輸出推理和反饋塊。指示代理在工具呼叫和響應塊之前輸出這些內容,可能會觸發思維鏈(CoT)行為,從而提高大語言模型的有效智能如果使用Claude 執行評估,可以開啟「交錯思考」(interleaved thinking)功能以獲得類似的效果。這將有助於探查代理呼叫或不呼叫某些工具的原因,並突出工具描述和規範中需要改進的具體方面。除了頂層精準率外,還建議收集其他指標,如單一工具呼叫和任務的總執行階段間、總工具呼叫次數、總詞元消耗量和工具錯誤。追蹤工具呼叫可以揭示代理常用的工作流程,並為工具的整合提供一些機會分析結果代理是發現問題和提供反饋的得力助手,它們能就從矛盾的工具描述到低效的工具實現和令人困惑的工具模式等一切問題提供反饋。但請記住,代理在反饋和回應中遺漏的內容往往比它們包含的內容更重要。大語言模型並不總能言如其意。觀察代理在何處遇到困難或感到困惑。通讀評估代理人的推理和回饋(或思維鏈),以找出不順手的地方。審查原始互動記錄(包括工具呼叫和工具回應),以捕捉代理思維鏈中未明確描述的任何行為。要讀懂言外之意;記住,評估代理人不一定知道正確的答案和策略。分析工具呼叫指標。大量的冗餘工具呼叫可能表示需要調整分頁或詞元限制參數;大量因參數無效而導致的工具錯誤可能表示工具需要更清晰的描述或更好的範例。在推出Claude 的網路搜尋工具時,發現Claude 會不必要地將「2025」附加到工具的查詢參數中,這導致搜尋結果出現偏差並降低了效能(透過改進工具描述引導Claude 回到了正確的方向)。與代理協作甚至可以讓代理來分析結果並改進工具。只需將評估代理的互動記錄拼接起來,然後貼上到Claude Code 中。 Claude 是分析互動記錄和一次性重構大量工具的專家——例如,在進行新更改時,確保工具的實現和描述保持自洽。實際上,本文中的大部分建議都來自於重複使用Claude Code 優化內部工具實現的過程。這些評估建立在內部工作空間之上,反映了內部工作流程的複雜性,包括真實的項目、檔案和訊息。通過使用獨立的測試集來確保沒有對“訓練”用的評估集過擬合。這些測試集表明,即使是基於「專家」編寫的工具實現——無論是研究員手動編寫的還是由Claude 自己生成的——也仍然可以獲得額外的性能提升。編寫高效工具的原則本節將把所學的經驗提煉為幾個編寫高效工具的指導原則。為代理選擇正確的工具更多的工具並不總是能帶來更好的結果。一個常見的錯誤是,工具只是對現有軟件功能或API 端點的簡單包裝——而不管這些工具是否適合代理。這是因為代理相對於傳統軟件有不同的「功能可見性」(affordances)——也就是說,它們感知其可以採取的潛在行動的方式不同。大語言模型代理的「上下文」(即它們一次能處理的資訊量)是有限的,而電腦內存則是廉價且充足。考慮在通訊錄中搜尋聯絡人的任務。傳統軟件程式可以有效率地儲存和逐個處理聯絡人列表,檢查完一個再移至下一個。然而,如果一個大語言模型代理使用的工具返回了所有聯繫人,然後它必須逐個詞元地閱讀每個聯繫人,那麼它就是在不相關的資訊上浪費其有限的上下文空間(想像一下通過從頭到尾閱讀每一頁來在地址簿中尋找聯繫人——也就是通過暴力搜尋)。更好、更自然的方法(對代理人和人類都一樣)是先跳到相關的頁面(也許是按字母順序尋找)。建議先建構少數幾個經過深思熟慮的工具,針對特定的高影響力工作流程,這些工作流程應與評估任務相匹配,然後在此基礎上逐步擴展。在地址簿的例子中,可以選擇實現一個 search_contacts 或 message_contact 工具,而不是一個 list_contacts 工具。工具可以整合功能,在底層處理可能多個離散的操作(或API 通話)。例如,工具可以用相關的中繼資料豐富工具來回應,或是在一個工具呼叫中處理頻繁鍊式呼叫的多步驟任務。以下是一些範例:與其實現 list_users、list_events 和 create_event 工具,不如考慮實現一個 schedule_event 工具,該工具可以尋找空閒時間並安排事件與其實現一個 read_logs 工具,不如考慮實現一個 search_logs 工具,它只會傳回相關的日誌行和一些上下文與其實現 get_customer_by_id、list_transactions 和 list_notes 工具,不如實現一個 get_customer_context 工具,該工具一次彙編客戶所有近期和相關的資訊。確保建構的每個工具都有一個清晰、獨特的目的。工具應能讓代理人像人類在擁有相同底層資源的情況下那樣,對任務進行細分和解決,並同時減少本應被中間輸出消耗的上下文。過多的工具或功能重疊的工具也可能分散代理的注意力,使其無法採取高效的策略。謹慎、有選擇地規劃要建構(或不建構)的工具,可以帶來巨大的回報。為工具使用命名空間AI 代理程式可能會接觸到數十個MCP 服務器和數百個不同的工具——包括其他開發者開發的工具。當工具功能重疊或目的模糊時,代理可能會混淆該使用那個。命名空間(將相關工具按共同的前綴分組)有助於在眾多工具之間劃定界限;MCP 客戶端有時會默認這樣做。例如,按服務(如 asana_search、jira_search)和按資源(如 asana_projects_search、asana_users_search)對工具進行命名空間劃分,可以幫助代理在正確的時間選擇正確的工具。實踐發現,選擇基於前綴還是後綴的命名空間方案,對工具使用評估有不可忽視的影響。這種影響因大語言模型而異,建議根據自己的評估選擇命名方案。代理可能會呼叫錯誤的工具,用錯誤的參數呼叫正確的工具,呼叫過少的工具,或錯誤地處理工具回應。透過選擇性地實現其名稱能反映任務自然劃分的工具,可以同時減少載入到代理上下文中的工具和工具描述的數量,並將代理計算從代理的上下文中轉移回工具呼叫本身。這降低了代理犯錯的總體風險。從工具中傳回有意義的上下文同樣地,工具的實現應注意只向代理傳回高資訊量的訊號。它們應優先考慮情境相關性而非靈活性,並避免使用低等級的技術識別碼(例如:uuid、256px_image_url、mime_type)。像 name、image_url 和 file_type 這樣的欄位更有可能直接為代理的後續行動和回應提供資訊。當代理處理自然語言名稱、術語或識別碼時,也比處理晦澀的識別碼成功得多。實踐發現,僅僅將任意的字母數字UUID 解析為更具語義意義和可解釋性的語言(甚至是0 索引的ID 方案),就能通過減少幻覺顯著提高Claude 在檢索任務中的精確度。在某些情況下,代理可能需要靈活地與自然語言和技術識別碼輸出進行互動,即使只是為了觸發後續的工具呼叫(例如,search_user(name=’jane’) → send_message(id=12345))。可以透過在工具中暴露一個簡單的 response_format 列舉參數來實現這一點,讓代理控制工具是傳回「簡潔」還是「詳細」的回應。可以加入更多格式以獲得更大的靈活性,類似於GraphQL,可以選擇確切地想要接收那些資訊。以下是一個用於控制工具響應詳細程度的 ResponseFormat 枚舉範例:enum ResponseFormat {   DETAILED = "detailed",   CONCISE = "concise"}這是一個詳細工具響應的範例(206 個詞元):這是一個簡潔工具響應的範例(72 個詞元):即使是工具的回應結構——例如XML、JSON 或Markdown——也可能對評估效能產生影響:沒有萬能的解決方案。這是因為大語言模型是基於下一個詞元預測進行訓練的,它們往往在處理與其訓練資料格式相符的格式時表現更好。最佳的響應結構會因任務和代理的不同而有很大差異。建議根據自己的評估選擇最佳的響應結構。優化工具響應的詞元效率優化上下文的品質很重要,但優化工具回應中傳回給代理程式的上下文數量也同樣重要。建議為任何可能消耗大量上下文的工具回應,實施分頁、範圍選擇、過濾和/或截斷的組合,並設定合理的預設參數值。對於Claude Code,工具響應默認限制在25,000 個詞元。預計代理的有效上下文長度會隨著時間的推移而增長,但對上下文高效的工具的需求將持續存在。如果選擇截斷響應,請務必用有用的指令來引導代理。可以直接鼓勵代理人採取更節省詞元的策略,例如在知識檢索任務中進行多次小範圍、有針對性的搜尋,而不是一次大範圍的搜尋。同樣,如果工具呼叫引發錯誤(例如,在輸入驗證期間),可以通過提示工程優化錯誤響應,以清晰地傳達具體且可操作的改進建議,而不是返回不透明的錯誤代碼或追溯資訊。這是一個截斷工具響應的範例:這是一個無益的錯誤響應範例:這是一個有益的錯誤響應範例:通過提示工程優化工具描述現在介紹一種最有效的工具改進方法:通過提示工程優化工具的描述和規範。因為這些內容會被載入到代理的上下文中,它們可以共同引導代理採取有效的工具呼叫行為。在編寫工具描述和規範時,可以想像如何向團隊中的新成員描述這個工具。考慮那些可能隱含的背景資訊——專門的查詢格式、小眾術語的定義、底層資源之間的關係——並將它們明確化。通過清晰地描述(並用嚴格的數據模型強制執行)預期的輸入和輸出來避免歧義。特別是,輸入參數應明確命名:與其使用名為 user 的參數,不如嘗試使用名為 user_id 的參數。透過評估,可以更有信心地衡量提示工程帶來的影響。即使是對工具描述進行微小的改進,也可能帶來顯著的效能提升。在對工具描述進行精確優化後,Claude Sonnet 3.5 在SWE-bench Verified 評估中取得了業界領先的效能,錯誤率大幅降低,任務完成率顯著提高。可以在開發者指南中找到有關工具定義的其他最佳實踐。如果正在為Claude 建立工具,也建議閱讀關於工具如何動態載入到Claude 系統提示中的內容。最後,如果正在為MCP 服務器編寫工具,工具註解有助於說明那些工具需要訪問開放世界或會進行破壞性更改。展望未來要為代理程式建構有效的工具,需要將軟件開發實踐從可預測的、確定性的模式轉向非確定性的模式。透過本文所描述的迭代、評估驅動的流程,已經識別出成功工具的一致模式:有效的工具目標明確、定義清晰,能明智地使用代理上下文,可以組合成多樣化的工作流程,並能讓代理直觀地解決真實世界的任務。未來,預計代理與世界互動的具體機制將會演變——從MCP 協議的更新到基礎大語言模型本身的升級。透過系統化、評估驅動的方法來改進代理工具,可以確保隨著代理能力的增強,它們使用的工具也將與之共同進化 (AI寒武紀)
吸金能力驚人!美國誕生又一千億美元AI巨頭,2027年要超越OpenAI
美國 AI 大模型公司前三名:1. OpenAI估值:860億美元(截至2024年)核心領域:通用大語言模型(如GPT系列)、生成式AI工具(如ChatGPT、Sora視訊生成工具)。亮點:主導全球生成式AI浪潮,技術覆蓋文字、圖像、視訊等多模態場景,2025年推出AI智能體(Agent)產品“Operator”,實現從認知到執行的閉環能力。2. xAI估值:240億美元(截至2024年12月)核心領域:AI聊天機器人(Grok系列)、社交平台整合。亮點:由埃隆·馬斯克創立,依託社交平台X(原Twitter)資料訓練模型,主打“反覺醒”風格,計畫建構人類與AI共存的社交生態。3. Anthropic估值:182億美元(截至2024年)核心領域:安全可靠的大語言模型(Claude系列)、企業級AI解決方案。亮點:由OpenAI前高管創立,強調模型安全性和可解釋性,客戶包括橋水基金、Salesforce等頭部企業。今年上半年,Anthropic的營收實現4倍增長,按最近單月營收年化計算已超40億美元(約合人民幣287.2億元)。Anthropic向部分投資者透露,其5月推出的程式設計助手Claude Code,周下載量已達300萬次,自6月以來增長6倍。Anthropic預計該產品將帶來超2億美元(約合人民幣14.4億元)年化收入,月均1670萬美元(約合人民幣1.2億元)。Anthropic的增長部分還源於其對新興AI初創企業的賦能作用。其主要競品Cursor的核心技術同樣基於Anthropic模型,其業務擴張間接推動了Anthropic的收入增長。上面是Anthropic招聘條件。雖然AI模型研發成本高昂,但因為演算法改進和AI晶片使用效率提升,OpenAI與Anthropic展現出的模型運行成本均呈現下降趨勢,這令投資者稍感寬慰。不過當前投資者更關注的是兩家公司驚人的營收增長,雙方均有望大幅超越年初設定的樂觀營收目標。資本看好程式設計任務自動化市場專注於程式設計任務自動化的企業,正加速推出能處理複雜長期程式設計任務的智能體。包括OpenAI在內的多家機構研究者認為,程式設計自動化是開發通用AI的關鍵一步。不止一個矽谷的科技大佬在公開場合提及過,智能體大規模替代AI研發人員的工作後,研發人員將有更多的時間放在更加具有創造性的工作上,並且這也為智能體自動化處理其他經濟價值更高的工作奠定了技術基礎。外媒評價,程式設計任務自動化堪稱大語言模型目前最成功的商業應用,投資者對於Anthropic的樂觀期待也證實了這一點。 (AI創造財富)